iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 18
0
Software Development

30 天的 SFC 學習日誌系列 第 18

Day 18 - 文獻探討(6)

  • 分享至 

  • xImage
  •  

大家好,我是毛毛。
今天是Day 18
終於要來看Deep Q-network~ ヽ(✿゚▽゚)ノ


Reinforcement learning-based QoS/QoE-aware service function chaining in software-driven 5G slices

這篇是2018年七月刊登在Trans. Emerg. Telecommun. Technol.上的論文。


** Deep Q-network**

Deep Q-network,和前面某一天提到的Deep Q-learning差別在於Deep Q-network有兩個神經網路。
以這篇論文來說,它用CNN作為它Deep Q-network中的神經網路,這兩個神經網路分別叫做:

  • evaluation network (eval-net)

    • 這個神經網路中的參數叫做theta,它在每一次的疊代都會更新。
  • target network (target-net)

    • 這個神經網路中的參數叫做theta^-,它只有在theta每x次的疊代才會更新
  • 整體的loss function是定義成Mean Square Error (MSE):

    • https://ithelp.ithome.com.tw/upload/images/20200924/20129934zDgoUO2GSl.png
  • Gradient descent透過微分loss function得到:

    • https://ithelp.ithome.com.tw/upload/images/20200924/20129934v5Zm2aQASF.png

透過gradient descent和back propagation,可以得到最佳的Q-value


看完loss function和更新權重的部分後,現在來看Policy decision的部分

Policy decision

這邊就是在選擇action,而通常分為兩種方法:

  • Exploration

    • 這個方法就是隨機地選擇action
  • Exploitation

    • 這個方法會選擇Q-value最大的action
    • 又稱Greedy policy
  • Exploration-Exploitation Dilemma

    • 因為有時候並不知道該選擇Exploration的方法隨機選,還是說選擇Exploitation的方法去選之前的經驗中最好的
    • 舉例來說:
      假設附近有十間餐廳,而在之前有吃過了其中的7間餐廳,這7間餐廳中最好吃的餐廳的評分可以打到8分,可是剩下的3間沒吃過的餐廳,它們的評分是有可能可以打到10分的,當然也可能只能打1分,現在問題就來了,我們要吃到最好吃的餐廳,應該要選擇那7間吃過的,還是那三間沒吃過的呢?
    • 又稱Epsilon-greedy policy
    • https://ithelp.ithome.com.tw/upload/images/20200924/201299345nJJFUf7sq.png
      *這個方法就是會以epsilon的機率隨機選擇任何一個action,否則就選擇Q-value最大的action。
      *公式中的Mi是在這個state中所有的action數量

這邊還有另一個policy decision的問題

Multiarmed bandit problem

Multiarmed bandit problem這個問題是在說,現在有幾個單臂老虎機,組在一起就稱作Multiarmed bandit,問題就是,我們需要制定什麼樣的策略才能取得最大的獎勵,這裡假的每個老虎機的獎勵的隨機分布不同。
https://ithelp.ithome.com.tw/upload/images/20200924/20129934LUmJEXxhJn.png
上圖來自PapersWithCode

  • 最常用來解決MAB的演算法有:
    • Greedy policy
    • Epsilon-greedy policy
    • Softmax
    • Upper Confidence Bound (UCB)

解決MAB的演算法明天在講啦~
明天一早要報告,大家晚安 Zz(´-ω-`*)
明天見/images/emoticon/emoticon29.gif


上一篇
Day 17 - 文獻探討(5)
下一篇
Day 19 - 文獻探討(7)- Softmax
系列文
30 天的 SFC 學習日誌30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言